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COMPOSANT A ARCHITECTURE RECONF I GURABLE D YNAMI QUEMENT 

DESCRIPTION 

5 DOMAINE TECHNIQUE 

L' invention releve du domaine des 
composants reconf igurables dynamiques didies au 
traitements de donnees, notamment pour 1' execution des 
instructions correspondant aux di verses t&ches d'une 
10 application. 



ETAT DE LA TECHNIQUE ANTE RI EURE 

Les composants reconf igurables de maniere 

15 dynamique ont classiquement pour finality une 
utilisation optimisee de leurs ressources materielles 
lors de traitements de donnees effectues pour realiser 
une application. Le plus souvent il s'agit de 
reconfiguration visant a obtenir un taux d' utilisation 

20 d'un composant le plus eleve" possible. D'autres fois il 
s'agit d'utiliser la reconfiguration pour viser la 
robustesse d'un composant (c' est-S-dire de permettre au 
composant de fonctionner m§me en cas de d§faillance 
d'une partie de ses ressources mat6rielles) , ou bien il 

25 s'agit de viser un tres haut debit de donnees traities 

par le composant ou bien "~ encore _ une^ cons ommat ion — 
d'energie reduite lors de 1 'utilisation du composant. 
La reconfiguration peut aussi §tre utilisee pour 
optimiser le traitement de donnees en parallele sur des 

30 processeurs elementaires du composant. 



V 
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II existe differentes manieres de realiser 
une application : avec un circuit int^gre a application 
specifique (un ASIC, "Application Specific Integrated 
Circuit' ) dedie, avec un processeur ou avec un reseau 
5 prediffuse programmable par 1 ' utilisateur (un FPGA, 
"Field Programmable Gate Array') . 

L'ASIC de'die offre une realisation spatiale 
optimum puisgue les operateurs sont directement cables 
sur le silicium ; cependant ce type de composant etant 

10 d6die a une application donn£e, il ne permet pas de 
passer (ou alors de facon tres degradee) a un autre 
type d' application. 

L' utilisation d'un processeur permet une 
implementation temporelle d'une application : celle-ci 

15 est traduite en sequences d' instructions realisables 
par le processeur, avec reutilisation de son unite" de 
traitement a chaque cycle. Suivant le jeu 
d' instructions du processeur, cette technique offre une 
grande souplesse au niveau des applications qui peuvent 

20 etre traitees et de plus 1 ' architecture est tres 
compact e . L' inconvenient principal du processeur 
concerne la performance qui est tr§s loin de celle des 
ASICs dedies. 

Les compos ants programmables (on dit aussi 

25 reconf igurables) que sont les FPGA presentent une 
alternative entre le processeur et 1'ASIC : une 
application est ~ implant ee sur une matrice de .cellules 
de traitement pre-caracterisees (grains fins du 
composant) avec de nombreuses interconnexions. 

3 0 Cependant, 1 ' utilisation actuelle des FPGA est limitee 
le plus souvent a une seule configuration implantee 



WO 2005/031493 PCT/FR2004/050473 



alors qu'il est souhaitable d'effectuer des 
reconfigurations en cours d' execution. On a done une 
repartition spatiale de 1 ' application a realiser et non 
temporelle : la capacite du FPGA a se reconfigurer pour 
5 realiser une autre application n'est pas exploited. 
Deux raisons principales expliquent cette absence de 
reconfiguration dynamique : tout d'abord, la majority 
des FPGA n'autorise qu'une reconfiguration totale du 
composant, ce qui entraxne un cout tres lourd en terme 
10 de temps { typiguement quel que s millisecondes a quel que s 
centaines de millisecondes) car il faut re-router 
, 1' application pour cabler les operateurs de facon 
optimum ; ensuite, du fait que le grain des FPGA est 
tres fin pour pouvoir s' adapter a un grand nombre 
15 d' applications , le cablage des operations a 
1' inconvenient d'etre complexe et de necessiter une 
. capacite de transmission importante pour un grand 
nombre de bits (au niveau des bus de controle) . 

Le brevet 036,150,839 divulgue un nouveau 

2 0 type de FPGA qui possede deux niveaux de cache pour 

pouvoir se reconfigurer partiellement . L' architecture 
de ce FPGA se presente sous la forme de deux ensembles 
de cellules qui sont associees respect ivement a deux 
memoires cache, chacune de ces memoires pouvant 
25 contenir un ou plusieurs contextes pour 1' ensemble des 
cellules. Ce type de FPGA presente plusieurs 
inconvenients : la reconfiguration des cellules se fait 
par paquets de cellules et le chargement d'une nouvelle 
configuration necessite plusieurs cycles d'horloge ; de 

3 0 plus, la structure de communication inter- cellules est 

complexe et fait intervenir des bus globaux, les 



possibility tres etendues d' interconnexion qui en 
resultent font que les ressources d' interconnexion 
predominent sur celles de traitement. 

L' architecture dite DPGA [1,2] (pour 
* Dynamically Programmable Gate Array' ) , developpee au 
MIT des 1994, a pour grain fin une cellule assez simple 
comportant une LUT ( x Look-Up Table' ou table de 
conversion) a quatre entries et une bascule 
programmable. Ces cellules sont regroupees par blocs de 
16 au sein d'une matrice 4x4. La mise en tableau de ces 
elements constitue le DPGA. Deux r&seaux 
d' interconnexions cohabitent dans cette architecture. 
Le premier reseau est local au bloc de cellules : 
chaque cellule peut utiliser en entree les sorties des 
cellules appar tenant a la mime ligne ou a la meme 
colonne (soit 6 bits) , il est aussi possible que la 
cellule utilise sa propre sortie coitime entree. Le 
second reseau permet de foumir a chaque bloc des 
signaux globaux. En effet, les blocs communiquent entre 
eux en utilisant des 1 crossbar' (reseau 
d' interconnexion) qui autorisent chaque cellule a 
recevoir deux signaux globaux par matrice voisine (soit 
8 bits, car chaque matrice contient 16 cellules et peut 
done fournir 16 bits a ses voisins) . Pour les entries 
de la LUT de chaque cellule, il y a done le choix parmi 
15 bits : sa sortie, les 6 bits des cellules voisines, 
les 8 bits des matrices voisines. Le DPGA- est capable _ 
de memoriser quatre contextes (ou configurations) , ce 
qui autorise le passage rapide de l'un a 1' autre. Ce 
composant presente toutefois certains inconvenients : 



- la structure d' interconnexion est trop complexe pour 
supporter des applications de type flot de donnies (par 
exemple des applications multimedia, interactives ou de 
cryptographie) ; 

- la simplicity de commande des context es (deux fils 
pour le composant) limite les possibilites de 
realisation du composant au niveau de la 
reconfiguration ; 

- le maintien des resultats de traitement a lieu a la 
sortie de la cellule, ce qui oblige a maintenir toutes 
les entrees, du producteur jusqu'au consommateur 
final ; 

- un seul numero de configuration est distribue pour 
tout le composant . 

L' architecture PipeRench [3,4] a ete 
developpee pour utiliser la reconfiguration en mode 
pipeline afin de realiser des applications de type flot 
de donnees. C'est une architecture a gros grain, elle 
est basee sur des cellules relatiyement complexes 
(grain fin) PE (pour * Processing Element') organisees 
en 'stripes' ou etages de cellules (gros grain) . Ces 
stripes physiques (cables sur silicium) sont organises 
en lignes et sont relies entre eux par des 
interconnexions qui permettent la realisation d'un 
anneau ; c'est cet anneau physique qui permet le 
pipeline. PipeRench decoupe une application a realiser 
en un certain nombre d' operations element aires qui sont 
ensuite reparties dans des stripes virtuels (etages 
virtuels decrits en memoire) . Du fait de la taille 
importante des cellules PE, il n'est en general pas 
possible d' avoir autant de stripes physiques que 
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necessaire sur le composant : PipeRench virtualise done 
les ressources materielles necessair.es en reconf igurant 
les stripes physiques de maniere a ce qu' ils realisent 
successivement toutes les operations de 1' application . 
5 Chacune des etapes de 1 ' application correspond a une 
configuration particuliere d'un etage physique de 
1' architecture . Les donneee se deplacent d' etage en 
etage en realisant les differentes etapes du 
traitement, ce qui rend difficile la realisation de 

10 traitements non deterministes pour lesquels 
1' application est dependante des donnees. De plus, tout 
les etages de traitement n'etant pas forcement presents 
dans 1 ' architecture physique, chaque etage ne doit 
dependre que des donnees de 1' etage precedent. Une 

15 structure particuliere de registre permet cependant de 
faire transiter des donnees vers un etage inferieur en 
appliquant le meme pipeline que pour les donnees 
classiques ; ceci impose toutefois que des bouclages ne 
peuvent intervenir qu' au sein d'un meme etage (les 

20 bouclages entre etages sont prohibes) , des registres 
permettant de realiser des retroactions au sein d'un 
etage. Lorsqu'un §tage est decharge de 1 ' architecture , 
sa configuration doit §tre sauvie de facon a maintenir, 
pour sa reutilisation, l'etat de ses variables 

25 internes. Le passage des donnees entre les stripes se 
fait de maniere unidirectionnnelle, e'est pourquoi les 
" conf igurations sont stockees - dans une memoire - unique e.t. . . 
sont trans f§rees au coup par coup aux stripes devant 
etre reconfigures. PipeRench presente encore d' autre s 

30 inconvenient s : 



- les stripes sont complexes car ils utilisent des 
interconnexions locales entre les cellules PE ; 

le nombre tres important de bits qu'il faut 
transmettre pour la remise a jour de la configuration 
des stripes ; 

- les application traitees doivent §tre du type flot de 
donnees et n' avoir que des boucles internes courtes 
(sur un seul stripe) ; 

- les cellules PE (plus elaborees que celles des FPGA) 
correspondent a un grain encore trop fin pour pouvoir 
ef fectuer des traitements complexes ; 

si une application traitee est trop longue par 
rapport au nombre de stripes , le temps de latence pour 
un traitement complet.peut devenir tres important ; 

- enfin la consommation du compos ant est plus e levee 
d' environ 30% par rapport a celle d'un processeur 
classique. 

Les composants reconf igurables de l'art 
anterieur presentent done certains inconvenient s ou 
limitations : les ressources d' interconnexion 

pr§dominent sur celles de traitement, leur grain est 
trop fin, les ressources de routage necessaires pour le 
controle du composant sont trop importantes, ils ne 
sont pas adaptables a toutes les applications d'un 
domaine donn§ (par exemple : tous les algorithmes 
sym€triques en cryptographie) et ils ne peuvent pas 
traiter "des applications differentes en meme temps, ils 
ne sont pas adaptes pour le traitement de plusieurs 
types (flot de donnees ou donnees dependant es) , leur 
taux d' utilisation n'est pas lleve notamment lorsque 
l'on fait des traitements multimodes (pipeline ou 
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parallele ou mixte) , ils ne sont pas modulables en 
terrae de consommation d' energie (basse consommation ou 
haut debit) . 

EXPOSE DE L' INVENTION 

\- V invention vise done a palier aux . 

inconvenients pre- cites mais aussi a assurer la surete 
structurelle et la robustesse (reconfiguration en cas 
de dysf onctionnement d'une partie du coraposant) du 
composant reconf igurable dynamique. 

Afin de pouvoir equilibrer les ressources 
d' interconnexion et de traitement dans le composant, 
les operateurs complexes (au niveau du choix du grain) 
sont favorises et les ressources d' interconnexion sont 
limitees. Les echanges lies au contr61e sont limites en 
instaurant un nombre de bits de controle reduit tout en 
autorisant des echanges de donnees a . traiter larges . 
Les ressources de routage global ont §te supprimees et 
ne sont conservees que des ressources locales ou 
pseudo-locales utiles aux transfert de donnees. Ce 
choix est li£ at celui du grain de base de 
1' architecture du composant selon 1' invention. 

Dans son mode de realisation de base, le 
composant a architecture reconf igurable dynamiquement , 
pour le traitement de donnees, selon 1' invention, est 
un composant comportant un bloc de traitement de 
donnees TD et un control eur general CG apte a controler 
le bloc TD caracterise en ce que : 

le bloc TD comprend une pluralite de blocs 
elementaires de traitement de donnees BE 
reconf igurables ; chaque bloc elementaire BE comprenant 



deux entrees, El et E2, pour la reception de donnees a 
traiter, et une sortie S pour la transmission de 
donnees traitees ; un bus de donnees d' entree commun 
etant apte a transmettre des donnees a traiter a 
1' entree El de chacun des blocs BE ainsi gu'au 
controleur CG ; pour chaque bloc BE, un bus de donnees 
de sortie, connecte* a sa sortie S, £tant apte a 
transmettre des donnees traitees vers l'exterieur du 
composant et, par un bus de donnees derive, a 1' entree 
E2 d'un seul autre bloc BE ; 

le contr61eur CG est apte a initialiser les 
configurations des blocs BE et commander leur 
reconfiguration dynamique, a contr61er les flux de 
donnees en sortie de chaque bloc BE de facon a 
transmettre des donnees soit vers 1'extirieur soit vers 
1' entree E2 d'un autre bloc BE, a controler les flux de 
donnees en entree de chaque bloc BE. 

Ce mode de realisation de base permet de 
palier a certains des inconvenient s de I'art ante"rieur, 
notamment en ce qui concerne la complexity des 
interconnexions qui est ici fortement r§duite . Le grain 
de la version de base du composant est le bloc 
elementaire de traitement BE, ilpeut etre capable de 
traiter des operations complexes , et les 
interconnexions permettent la transmission sirie ou 
parallele, ou la sortie vers l'exterieur, entre chaque 
paire de blocs BE consecutifs. Le controleur CG _ est 
bien sur apte a gerer les problemes de saturation de 
chaque bloc BE et il est aussi, classiquement , apte a 
emettre des requites vers l'exterieur pour faire 
recevoir des donnees a traiter par le bloc TD (le bloc 
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TD etant apte a recevoir des donnees de l'exterieur du 
composant) , a recevoir de l'exterieur des instructions 
pour le traitement de donnees par le bloc TD, et les 
memoriser et a £changer des signaux de controle avec 
5 1 ' exterieur . 

Le mode de realisation de base du composant 
selon 1' invention est illustre, sur un exemple 
particulier, sur la figure 1 : le composant comporte un 
bloc de traitement de donnees TD (1) et un controleur 

10 general CG (2) , le bloc TD peut recevoir des donnees de 
l'exterieur (3) et comprend trois blocs elementaires de 
traitement de donnies BE (4,5,6) ; sur le bloc (4) sont 
indiquees les entrees El et E2 ainsi que la sortie S, 
1' entree El de chaque bloc BE est reliee au bus de 

15 donnees d' entree commun (7), la sortie S de chaque bloc 
BE est connectee a un bus de sortie (8,9,10) vers 
l'exterieur et a 1' entree E2 d'un seul autre bloc par 
un bus de donnees derive (11,12,13). Les bus de 
controle reliant le controleur CG (2) aux blocs BE ou a 

20 l'exterieur ne sont pas represented . 

Dans un mode de realisation a utilisation 
maximale de bloc, dependant du mode de base, le 
controleur CG du composant selon 1' invention est apte a 
commander la transmission des donnees recues de 

25 1'extirieur sur le bus de donnees d' entree commun, au 
fur et a mesure de leur arrivee, successivement a 
chacun des blocs- BE, les- donnees etant- transmises- a un 
bloc BE suivant lorsque la capacite maximale de 
traitement du bloc BE precedent est atteinte . 

30 Ce mode de realisation permet a la fois de 

girer la saturation des blocs et d' assurer que chaque 
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bloc utilise l'est au maximum de ses capacites de 
traitement. La capacite maximale de chaque bloc, par 
exemple, peut etre predefinie (et donnee au contrSleur 
CG) ou bien un bloc peut indiquer au controleur CG 
5 qu'il est sature en cours de traitement. 

Dans un autre mode de realisation, dit a 
modes de traitement multiples, du composant selon 
1' invention, dependant de l'un ou 1' autre des deux 
modes de realisation precedents, le controleur CG est 

10 apte a initialiser les configurations des blocs BE, 
bloc par bloc, et commander la reconfiguration 
dynamique des blocs, bloc par bloc, de facon a rendre 
le bloc TD apte a traiter des donnees en mode pipeline 
ou en mode parallele ou en mode mixte. 

15 Avec cette version du composant il est 

possible d'effectuer un traitement en mode pipeline, 
c'est-a-dire en faisant circuler les donnees de la 
sortie S d'un bloc a 1' entree E2 du bloc auquel il est 
connects par un bus derive, ou bien en mode parallele, 

20 c'est-a-dire en utilisant les blocs de maniere 
independante (le bloc trait e les donnees transmises par 
le bus de donnees d' entree commun et transmet le 
resultat en sortie, le bus derive n'est alors pas 
utilise) , ou bien en mode mixte, c'est-a-dire que 

25 certains blocs travaillent en parallele et d'autres en 
pipeline. Cette version du composant est 
particulierement avantageuse _pour_ _ sa _ ..so.upl.es.se_ 
d' adaptation et aussi parce qu'elle permet de traiter 
des application differentes, en m^me temps, sur des 

30 blocs BE fonctionnant en mode independant, a la 
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difference de l'art anterieur, grace a la 
reconfiguration bloc par bloc. 

Un " autre mode de realisation, selon 
1' invention, d'un composant a architecture 
5 reconf igurable dynamiquement , dit a lignes d' unites de 
traitement, est un composant conforme a l'un quelconque 
des modes de realisation precedents et dans lequel : 

- chaque bloc BE du bloc TD comprend une plurality 
d' unites de traitement de donnees UT conf igurables , et 

10 correspond a une ligne d'un reseau matriciel d' unites 
UT dans le bloc TD ; les unites UT de chaque paire 
d' unites successives dans chaque bloc BE etant aptes a 
echanger des donnees via un bloc de communication 
bidirectionnelle configurable associe BCOM dedie a ces 

15 deux unites ; 

- 1' unite UT d' entree de chaque bloc BE, qui correspond 
a la premiere unite UT sur la ligne correspondant au 
bloc, est apte a recevoir en entree des donnees recues 
sur les entrees El ou E2 du bloc, et 1' unite UT de 

20 sortie du bloc, qui correspond a la derniere unite UT 
sur la ligne correspondant au bloc, est apte a 
transmettre en sortie des donnees traitees a la sortie 
S du bloc ; 

- le contrSleur CG est apte, pour chaque bloc BE, a 
25 recevoir de l'exterieur des instructions pour le 

traitement de donnees par chacune des unites UT du bloc 
et a les memorisef, a initialiser les- configurations de 
chaque unite UT et de chaque bloc BCOM du bloc BE et a 
commander leur reconfiguration dynamique. 
30 Ce mode de realisation utilise des blocs de 

communication BCOM, permettant des communications 
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bidirectionnelles entre unites UT de traitement 
adjacentes d'un mime bloc BE : cette organisation d'un 
bloc BE autorise une grande souplesse de configuration 
du bloc (car chaque UT est reconf igurable) , notanvment 
pour les traitements multimodes . De plus, il est 
possible d'utiliser une interconnexion simple, pour les 
bus de controle, entre les unites UT, le blocs BCOM et 
le controleur CG : par exemple, chaque unite" UT de 
chaque bloc BE peut etre connectee au contr61eur CG par 
un bus de controle commun pour le bloc BE ; de m§me, 
chaque bloc BCOM de chaque bloc BE peut etre connecte 
au controleur CG par un bus de contrdle commun pour le 
bloc BE. L'homme du mitier notera que, lors d'un 
fonctionnement en parallele, la structure avec un 
nombre pair d' unites UT sur une ligne est plus 
efficace : en effet, apres le remplissage d'un bloc BE 
avec des donnees (du debut vers la fin du bloc) et 
quand le bloc BE est sature de donnees, si le nombre 
d' unites UT est pair et du fait du caractere 
bidirectionnel des blocs BCOM, les unites peuvent 
travailler par paires alors que si le nombre d' unites 
est impair il restera une unit§ inutilisee. La 
structure du bloc TD est equivalente a un reseau 
matriciel : les blocs BE, et leurs unites UT, en 
forment les lignes ; d'une ligne a 1' autre, les unites 
UT (de rang correspondant sur les lignes) en forment 
les- colonnes - — — - _ 

La figure 2 illustre un exemple de 
structure d'un bloc BE du composant a lignes d' unites 
de traitement : le bloc BE (14) comprend 4 unites de 
traitement UT (15) alternant avec des blocs de 
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communication BCOM (16) ; l'unite UT d' entree (15) du 
bloc est apte a recevoir des donnees en entree via un 
bus de donnees (18) et 1' unite" UT de sortie (17) du bloc 
est connectee en sortie (19) a la sortie S du bloc. Les 
unites UT sont connecters par un bus de controle commun 
(2 0) au controleur CG (non represented , et les blocs de 
communication BCOM sont connectes par un bus de 
contr61e commun (21) au contr61eur CG. 

Un autre mode de realisation du compos ant 
selon 1' invention, dependant du mode de realisation a 
lignes d' unites de traitement, est un composant, dit a 
registres inter- lignes , dans lequel : 

- les blocs BCOM de chague paire de blocs BCOM, dont 
les unites UT associees sont, selon le reseau matriciel 
d' unites du bloc TD, sur des colonnes adjacentes et sur 
des lignes adjacentes, sont aptes a echanger des 
donnees par un registre inter-lignes associe REG, de 
facon a permettre l'echange de donnees entre unites UT 
d'une ligne a 1' autre; 

le contrdleur CG est apte a commander la 
reconfiguration dynamique des unites UT et des blocs 
BCOM du bloc TD pour rendre le bloc TD apte a traiter 
des donnees en mode a lignes dependantes, pour au moins 
deux lignes adjacentes du r£seau matriciel, en 
commandant la bifurcation des donnees entre deux blocs 
BE correspondant aux deux lignes adjacentes, via un 
registre inter-lignes REG entre ces deux lignes. 

Le composant a registres inter-lignes est 
particulierement avantageux en ce gu'il permet de 
disposer d'un mode de traitement supplement a ire par 
rapport a l'art anterieur : le mode a lignes 
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dependantes (ou, de raaniere equivalente, a blocs BE 
dependants) . Ceci accroit encore les possibilites de 
traitement et permet d'ameliorer le taux d ' utilisation 
des ressources du composant ainsi que le dgbit de 
5 donnees. Par exemple si l'on dispose de deux lignes 
capables de traiter chacune 256 bits de donnees, le 
passage en mode dependant entre ces lignes permet de 
traiter 512 bits de donnees. L'homme du metier notera 
qu'avec une architecture PipeRench, a chaque coup 
10 d'horloge, on peut au mieux avec deux stripes realiser 
une reconfiguration d'un stripe , et une execution sur 
1' autre ; ceci implique qu'une seule donnee peut etre 
traitee a la fois, alors qu'avec 1' architecture selon 
1' invention on peut traiter deux donnees avec deux 

15 unites adjacent es car durant les transferts d' unite a 
unite, les unites sont reconf igurees . 

L' invention concerne aussi un composant 
avec controle de registre, qui est un mode de 
realisation dependant du mode precedent a registres 

20 interlignes, dans lequel le contrdleur CG est apte a 
transmettre, via un bus de contr61e, des signaux de 
type RESET ou ENABLE ou d'horloge a chaque regis tre REG 
du bloc TD, et dans lequel chaque registre inter-lignes 
REG entre deux blocs BCOM est apte a : 

25 - stocker des donnees recues d'un bloc BCOM dans une 
memoire et les rendre disponibles pour 1 ' autre bloc 

"BCOM~ ; " . 

- recevoir des signaux de type RESET ou ENABLE ou 
d'horloge emis par le controleur CG et executer les 

3 0 commandes correspondantes a ces signaux. 
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Ce controle de registre inter- lignes, pour 
le stockage en vue de la transmission de donnees entre 
deux blocs de communication, active par la commande 
ENABLE, ou pour la remise a zero de la memoire de 
stockage, activee par la commande RESET, permet de 
faciliter la gestion des transferts par le contrdleur 
CG. 

Un autre mode de realisation de 
1' invention, dependant de l'un quelcongue des modes 
precedents, concerne un composant avec multiplexage 
dans lequel : les entrees El et E2 d'un bloc BE sont 
celles d'un multiplexeur associe au bloc, la sortie du 
multiplexeur etant connectee £ 1' entree de 1' unite UT 
d' entree du bloc BE pour la transmission de donnees a 
cette unite. 

Cette version du composant permet done de 
simplifier les connexions en n'ayant qu'une seule 
entree pour 1' unite UT d' entree de bloc BE, pour 
recevoir des donnees des entrees El ou E2 du bloc. 

Le mode de realisation de 1' invention, 
dependant de l'un quelconque des modes de realisation 
du composant £ lignes d' unites de trait ement ou a 
registres inter-lignes ou avec controle de registre ou 
avec multiplexage, concerne un composant avec banc de 
cellules dans lequel : les unites de traitement de 
donnees UT du bloc TD sont des bancs de cellules 
elementaires- synchrones- de -traitement - de -donnees _ CE_ 
conf igurables, chaque banc comportant au moins une 
cellule elementaire CE ; les cellules CE de toute unite 
UT d'un bloc BE quelconque sont connectees & un bus de 
controle commun qui les relie au contrdleur CG, le 
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controleur CG etant apte a controler les cellules CE et 
a commander leur reconfiguration; pour chaque paire 
d' unites UT adjacentes dans un bloc BE, les cellules 
elementaires d'une unite UT sont aptes a echanger des 
5 donnees avec les cellules elementaires de 1' autre unite 
UT via le bloc BCOM assbcie a. ces unites, le bloc "BCOM 
etant apte a realiser ces echanges de donnees ; chaque 
cellule CE de 1' unite UT d' entree de chaque bloc BE, 
qui correspond a la premiere unite UT sur la ligne 

10 correspondant au bloc, est apte a recevoir en entree 
des donnees recues en entree de 1' unite UT par un bus 
de donnees commun a toute cellule CE de 1' unite UT; 
chaque cellule CE de 1' unite UT de sortie de chaque 
bloc BE, qui correspond a la derniere unite UT sur la 

15 ligne correspondant au bloc, est apte a transmettre en 
sortie des donnees a la sortie S du bloc par un bus de 
donnees commun a toute cellule CE de 1' unite UT. 

Cette version du composant, dans laquelle 
la cellule synchrone configurable CE est le grain fin 

20 de 1' architecture (bien qu' il s'agisse d'un gros grain 
par rapport aux architectures de 1'art anterieur) , 
permet de paralleliser localement le travail des 
cellules elementaires CE d'une unite UT, tout en ayant 
des interconnexions reduites puisque les cellules CE 

25 d'une meme unite de traitement n' echangent pas de 
donnees entre elles . Une unite UT (ou banc) comporte en 
general n cellules CE et, si k designe la taille des 
operandes manipules par les cellules Elementaires, 
1' unite UT est apte a traiter des blocs de p bits, avec 

30 p = n * k. La figure 3 illustre un banc UT de cellules 
CE (22), comportant ici 8 cellules, et les connexions 
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de chacune de ces cellules avec un bus de donnSes 
d' entree (23) pour la transmission de donnees a 
traiter, et avec un bus de donnees de sortie (24) pour 
la transmission de donn6es trait§es ; les cellules CE 
5 sont connectees au controleur CG (non represents) par 
un bus de controle commun (25) . 

La figure 4 illustre, pour un bloc BE, un 
exemple de connexions entre deux bancs de cellules CE 
adjacent s au sein du bloc via un bloc BCOM : le bloc 

10 BCOM (26) permet la transmission de donnees entre une 
cellule CE (28) d'une premiere unite UT et les cellules 
(29), (30) et (31) d'une deuxieme unite UT selon des 
signaux de commande recus du controleur CG par ces 
cellules, via le bus de controle des cellules (3 2) , et 

15 par le bloc BCOM, via le bus de controle (33) ; la 
cellule (35) recevant des donnees de la cellule (34) . 
Ceci illustre les transferts bidirectionnels (27) 
permis par le bloc BCOM entre cellules de bancs (ou 
unites) differents, alors que dans une me me unite UT 

20 les cellules CE ne communiguent pas (par exemple les 
cellules (28) et (35)). 

L' invention concerne aussi un mode de 
realisation du composant, dit avec controle local de 
communication, dependant du mode precedent avec banc de 

25 cellules, dans lequel chaque bloc BCOM, associe a des 
unites UT, comporte : 

un bloc de transmission BT apte -a- realises des 
echanges de donnees entre les cellules elementaires CE 
d'une unite UT et les cellules CE de 1' autre unite UT 

30 auxquelles BCOM est associe ; le bloc BT etant apte a 
etre configure par un controleur local de bloc CLB ; 
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- un controleur local de bloc CLB apte a recevoir et 
interpreter des signaux de controle provenant du 
contr61eur CG et £ configurer le bloc BT, selon des 
donnies de configurations recues et stockees dans une 
memoire de configuration locale MB, pour la 
transmission de donnees ; le contr61eur CLB §tant apte 
a gerer le chargement de la memoire MB en fonction de 
signaux de controle recus du contr61eur CG ; 

- un contr61eur general CG apte a controler les 
contrdleurs locaux CLB du bloc TD. 

Ce composant avec controle local de 
communication pre"sente de nouveaux avantages : les 
blocs de communication BCOM sont en effet 
reconf igurables et il est possible de choisir les 
cellules elementaires CE a interconnecter (entre unites 
UT adjacentes d'un bloc BE) , ce degre de liberte 
supplementaire permettant encore plus de souplesse de 
traitement et d ' ef f icacite" d' utilisation des cellules 
(notamment pour le mappage des operateurs ilementaires 
dans les cellules) . Les communications entre bancs, via 
les blocs BCOM, sont bidirectionnelles , ce qui est un 
avantage sur les composant s de type PipeRench ou le 
passage des donnees entre stripes est unidirectionnel . 
A titre d'exemple, le controleur CLB comprendra 
typiguement, outre la memoire vive MB (ou 1 RAM' ) , une 
machine a etats finis (ou FSM, 1 Finite State Machine') 
de"contr61e." 

Dans un autre mode de realisation du 
composant selon 1' invention, avec controle local de 
cellule, dependant du mode de realisation avec banc de 
cellules ou du mode avec controleur local de 



communication, chaque cellule elementaire synchrone CE 
d'un banc comporte : 

- un bloc operateur BO apte a recevoir des donn£es en 
entree par un bus de donnees d' entree, a les stocker et 
a effectuer un traitement sur ces donnees selon des 
signaux de configuration provenant d'un controleur 
local de cellule CLC ; a transmettre le resultat du 
traitement en sortie par un bus de donnees de sortie; 

- un controleur local de cellule CLC apte a : 

- recevoir des donnees par le bus de donnees 
d' entree ; 

- g§rer les differents modes de f onctionnement de 
la cellule CE, c'est-a-dire un mode 
d' initialisation, pour le chargement des mots de 
configuration de la cellule dans une memoire de 
configuration locale MC, un mode de test, pour 
effectuer des tests structurels de la cellule, et 
un mode normal pour 1' execution des operation de 
traitement de donnees, en fonction de signaux de 
configuration emis par le controleur CG et recus 
par le controleur local via le bus de controle 
commun ; 

- gerer le chargement de la memoire MC en fonction 
d'un mode de f onctionnement de la cellule indique 
par le contr61eur CG ; 

- interpreter des signaux de configuration recus 
du contrdleur- CG pour soit charger un mot de 
configuration correspondant dans un registre de 
configuration local RCL pour le maintenir pendant 
le cycle de traitement de donnees par la cellule, 
soit configurer le bloc BO en fonction d'un mot de 
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configuration figurant dans le registre RCL ; 
- effectuer des tests structurels de la cellule CE 
sur reception d'un signal de mode test emis par le 
controleur CG ; 
5 - un contr61eur general CG apte a controler les 
contrdleurs locaux CLC du bloc TD. 

Dans ce composant avec controle local de 
cellule, les cellules CE d'un banc sont 
reconf igurables . L'efficacite de traitement est done 
10 accrue et notarament il est possible de traiter 
plusieurs applications. Le bloc TD est alors apte a 
traiter ces applications differentes, y compris de 
maniere simultanee. De plus, il est possible 
d' effectuer des tests sur les cellules et ainsi 
15 d§tecter des def aillances . L'homme du metier notera que 
la strategie de f onctionnement du composant differe de 
celle de 1'art anterieur dans leguel les * cellules' 
voisines peuvent communiquer entre elles, ici on 
profite d'une reconfiguration de cellules pour realiser 
20 des echanges de donnees entre les cellules (de bancs 
differents) . La strategie de controle, quant a elle, 
repose sur un contr61e a deux niveaux : celui du 
contrSleur general CG au niveau haut de 1 ' architecture 
et celui du contrdle local tant au niveau du grain fin 
25 (controleurs CLC des cellules CE) qu'au niveau des 
blocs de communication (controleurs CLB) . Par rapport 

au FPGA "du ^brevet US6 ,-150 -,-8-3-9 , dans- - lequel _ la 

reconfiguration se fait par blocs de cellules, il est 
ici possible de reconfigurer cellule par cellule ; de 
30 plus 1' architecture selon 1' invention peut se 
reconfigurer en un cycle d'horloge au lieu plusieurs 
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cycles necessaires (du fait du temps necessaire an 
chargement de la nouvelle configuration dans un bloc) 
pour ce FPGA. A titre d'exemple de realisation, le bloc 
BO comprendra typiquement. une LUT, une memoire vive et 
une unite arithmetique logique ( ou ALU, ^Arithmetic 
Logic Unit' ) . 

. Dans un autre mode de realisation d'un 
composant selon 1' invention, ou composant a 
configuration par numero, qui depend du mode de 
realisation precedent avec contr61e local de cellule, 
le controleur local de cellule CLC est apte a 
interpreter des signaux de configuration recus du 
controleur CG pour d'abord lire un numiro de 
configuration de cellule sur le bus de controle commun 
puis charger un mot de configuration correspondant 
localement a ce numero, selon une table de 
correspondance locale, dans le registre RCL ; les 
numeros de configuration de cellule etant stockes dans 
une memoire du controleur CG et le controleur CLC etant 
apte a memoriser la table de correspondance locale. 

Ce mode de realisation a 1 ' avantage de 
requerir beaucoup moins de ressources de transmission, 
et done de simplifier la connectique du composant. En 
effet, la transmission d'un simple numero de 
configuration necessite un bus de controle beaucoup 
moins large que celui necessaire pour la transmission 
d'un mot -de configuration -ceci ~§tant -possible .grace, a 
la table de correspondance locale. De plus, la 
correspondance locale entre un numero et un mot de 
configuration introduit un degre" de liberte 
interessant : un meme numero peut en effet correspondre 
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a des mots de configuration differents dans des 
cellules diff£rentes, puisque les tables de 
correspondance sont locales . 

L' invention concerne aussi un mode de 
5 realisation du compos ant, dit avec BYPASS, dependant du 
mode de realisation precedent a configuration par 
numero ou du mode avec controle local de cellule, dans 
lequel le contr61eur CG est apte a recevoir d'une 
cellule CE une indication de dysf onctionnement 

10 resultant d'un test structurel mis en oeuvre sur cette 
cellule, et a commander au controleur local CLC de la 
cellule CE de configurer la cellule en mode BYPASS. 

Ce mode de realisation avec BYPASS (ou 
derivation) permet d'obtenir un composant robuste au 

15 niveau des cellules CE. 

De meme, il est possible d'obtenir la 
robust esse au niveau des blocs BCOM grace a un mode de 
realisation d'un composant selon 1' invention, dit avec 
BYPASS de communication, qui depend du mode de 

2 0 realisation precedent avec BYPASS et du mode avec 
contr61e local de communication, dans lequel le 
controleur local de bloc CLB d'un bloc de communication 
BCOM, connecte a une unite UT, est apte a configurer le 
bloc BCOM en mode BYPASS lorsque le controleur CG, 

25 ayant recu d'une ou plusieurs cellules CE de 1' unite UT 
une indication de dysf onctionnement , transmet au 
controleur CLB un signal de passage en mode BYPASS ,- le 
controleur CG etant apte a commander le passage en mode 
BYPASS d'un bloc BCOM d'une unite UT lorsqu'une 

30 commande de configuration en mode BYPASS d'une cellule 
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CE de 1' unite UT a ete transmise au cbntroleur local 
CLC de la cellule CE. 

Avec le mode de realisation avec by-pass de 
communication, un f onctionnement degrade du composant 
5 (c' est-a-dire avec perte d' unites UT ou de blocs BCOM) 
est done permis. L'homme du metier notera que la 
possibility de commander des cellules ou des blocs BCOM 
en mode BYPASS off re notamment celle de disposer, dans 
un bloc BE, d' unites UT ou de blocs BCOM 

10 * supplement aires' qui ne sont pas utilises en 1' absence 
de dysf onctionnement mais qui peuvent etre actives (via 
le controleur CG) en cas de dysf onctionnement dans le 
bloc ; ceci permettant de renforcer encore la 
robustesse du composant. 

15 Un mode de realisation d'un composant selon 

1' invention, dit avec regis tre local, permet 
d'augmenter la capacite de traitement du composant. 
Dans ce mode de realisation, dependant de 1'un 
quelconque des modes avec banc de cellules ou a 

2 0 contr61e local de communication ou a contrSle local de 

cellule ou a configuration par numero ou avec by-pass 
ou avec by-pass de communication, le resultat du 
traitement de donnees effectue" par une cellule CE est 
apte a etre stocke dans un registre local ; un resultat 
25 stocke dans ce registre local etant maintenu lors d'une 
reconfiguration de la cellule. 

- - - Le composant - avec registre . local permet 
done de sauvegarder les donnees calculees pendant une 
reconfiguration et un autre avantage lie a cette 

3 0 sauvegarde, et cela m§me si le bloc BE du composant est 

minimal' c' est-a-dire reduit a deux unites UT et un 
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bloc BCOM, est que grace au bloc BCOM a communication 
bidirectionnelle, il est possible de traiter deux 
donnees en meme temps au niveau du bloc BE et 
transmettre les resultats, alors que dans une 
5 architecture PipeRench on ne peut traiter qu'une donnee 
avec deux stripes (pendant qu'un stripe effectue le 
traitement, 1' autre se reconfigure), et ceci suppose 
bien sur que les donnees soient sauvegardees pendant la 
reconfiguration. Un autre avantage important du a ce 

10 registre local est de permettre l'echange de donnees 
stockees entre deux unites UT pendant la phase de 
reconfiguration, ce qui contribue a masquer le cycle de 
reconf igurat ion . 

Un autre mode de realisation d'un composant 

15 selon 1' invention, dependant de 1'un quelconque des 
modes de realisation precedents de 1' invention, 
concerne un composant avec gestion d' entree-sortie 
comport ant : 

- un bloc de gestion d' entree GE apte a recevoir des 
20 donnees de 1'exterieur et a stocker temporal reraent ces 
donnees recues, a formater des donnees stockees selon 
le mode d' initialisation ou le mode normal indique par 
le controleur CG via un bus de contr61e propre, a 
transmettre des donnees formatees a 1' entree El des 
25 blocs BE du bloc TD via le bus de donnees d' entree 
commun ; 

un bloc de gestion de sortie GS, connecte au 
controleur CG par un bus de controle propre pour la 
commande de reception de donnees traitees, connecte au 
3 0 bus de donnees de sortie de chacun des blocs BE du bloc 
TD pour recevoir des donnees traitees, et apte a 
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reformater des donnees traitees recues, a stoker dans 
une memoire tampon des donnees ref ormatees, a. recevoir 
une requete de transmission depuis l'exterieur, a 
transmettre a l'exterieur des donnees stockees dans la 
5 memoire tampon sur requite recue de l'exterieur. 

Cette version du composant, avec gestion 
d' entree- sortie, facilite les echanges des donnees avec 
l'exterieur (en particulier avec le stockage temporaire 
de donnees) et done 1 ' utilisation du composant par 

10 divers dispositifs. L'homme du metier peut remarquer 
que le gestionnaire d' entree GE permet une 
simplification de 1 ' implantation d'une application a 
traiter (ou mappage de 1 ' application) sur le composant. 

La figure 5 illustre un exemple d'un 

15 composant avec gestion d' entree-sortie : un 
gestionnaire d' entree GE (36) qui recoit des donnees de 
l'exterieur par un bus de donnees (43) et transmet des 
donnees f ormatees a. trois blocs BE (40,41,42) par un 
bus de donnees commun (44) ; les bus de donnees de 

20 sortie des blocs BE (45,46,47) sont connectes au 
gestionnaire de sortie GS (3 7) qui transmet a 
l'exterieur des donnees ref ormatees ' par un bus de 
donnees (48) ; le controleur general CG est connecte a 
GE par un bus de contr61e (38), a GS par un bus de 

25 controle (39), aux blocs BE1, BE2 et BE3, 
respect ivement, par les bus de controle (49,50,51). 

L'homme du metier sait qu'un composant 
reconf igurable doit pouvoir etre teste" regulierement . 
Une methode bien cormue pour cela est la methode JTAG 

30 [5] , normalisee par IEEE, qui est aussi utilisee pour 
le chargement (ou le rechargement ) de mots de 
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configuration grace a la possibilite offerte par la 
norme IEEE de disposer d' instructions specif iques a un 
utilisateur; le corposant doit alors integrer un 
contr61eur TAP et des bus de controle specif iques. 
5 C'est pourquoi un autre mode de realisation 

d'un composant selon 1' invention, dependant de l'un 
quelconque des modes de realisation du composant avec 
controle local de cellule ou a configuration par numero 
ou avec BYPASS ou avec BYPASS de communication ou avec 

10 registre local ou avec gestion d' entree-sortie, est un 
composant avec JTAG dans lequel le controleur local CLC 
de cellule CE, le contr61eur local CLB de bloc BCOM et 
le controleur general CG sont aptes a mettre en oeuvre 
une methode JTAG pour le chargement des configurations 

15 en phase de reconfiguration dynamique du composant, et 
pour la realisation de tests ; le controleur CG 
comprenant un controleur TAP connecte par des bus serie 
JTAG, bloc BE par bloc BE, aux cellules CE et aux blocs 
BCOM du bloc TD. 

2 0 Le choix du protocol e JTAG, applique au 

niveau local , est tout a fait compatible avec le choix 
du controle a deux niveaux deja evoque. Ce dernier 
s'explique par le fait que 1'on veut pouvoir 
reconfigurer les cellules en un temps tres court (une 
25 periode d'horloge au maximum) : une reconfiguration au 
plus proche de l'operateur de base est le plus efficace 
car on minimise 1 ' echange d' information et- -done son 
interpretation. Un des avantages de ce choix etant 
qu'il permet de reduire de facon considerable les 

3 0 ressources de routage pour le contr61e (un bus pour 

quelques bits de contrdle au lieu d'un bus de contrdle 
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de la largeur d'un mot de configuration) , et cette 
economie importante permet de diminuer la contrainte 
pour les bus de donnees . 

La figure 6 est une illustration d'un 
exemple d' insertion d'une chaine JTAG dans un ensemble, 
au sein d'un bloc BE, comprenant deux bancs de cellules 
CE et le bloc BCOM de communication associi : la chaine 
JTAG (52) est connectee successivement aux cellules CE 
du premier banc (53), au bloc BCOM (54) et aux cellules 
CE du deuxieme banc (55) ; cette connexion de controle 
vient en plus des bus de controle (sans JTAG) des 
cellules (56) et du bus de contrSle du bloc BCOM (57) 
qui sont connected au contrdleur CG (non represents) . 

Un autre composant selon 1' invention, est 
un composant a gros grain, conforme a 1'un quelconque 
des modes de realisation de 1' invention a lignes 
d' unites de traitement ou a registres inter-lignes ou 
avec contr61e de registre ou avec multiplexage ou avec 
banc de cellules ou avec contr61e local de 
communication ou avec contrdle local de cellule ou a 
configuration par numero ou avec BYPASS ou avec BYPASS 
de communication ou avec registre local ou avec gestion 
d' entr6e-sortie ou avec JTAG, dans lequel, sur les 
lignes du r£seau, les unites UT sont en nombre pair N 
et les blocs BCOM sont r€partis dans N/2 cellules de 
base CB, chaque cellule CB comportant deux unites UT 
adjacentes et le bloc~ BCOM" associe ~£r ces~ unites- ; -le - 
contr61eur CG £tant apte a commander la reconfiguration 
dynamique des cellules CB du reseau et des blocs BCOM 
de communication entre cellules CB, ligne par ligne, 
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pour rendre le bloc TD apte a traiter des donnees au 
moyen des cellules CB. 

Cette version du composant selon 
1' invention fait apparaitre un organe tres important en 
5 matiere de traitement de donnees qui est la cellule de 
base CB. Ainsi on dispose d'une architecture 
reconf igurable a trois niveaux hierarchiques : celui de 
la cellule elementaire CE (grain fin) pour 1' execution 
synchrone -d' operations element aires, celui de la 

10 cellule de base (gros grain) permettant de realiser des 
traitements complexes, et enfin celui du composant lui- 
meme. Le nombre plus ou moins grand de cellules de base 
configurees pour executer un traitement de donnees 
determine alors le caractere, respectivement , a haut 

15 debit de donnees ou a basse consommation d'energie du 
composant. Ce caractere, adaptable suivant des signaux 
de commande (au niveau du controleur CG) , combine aux 
grandes possibilites de configuration (ou de 
reconfiguration) de chaque cellule CB (via celles des 

20 cellules CE et du bloc BCOM) permet d'atteindre les 
buts vises par 1' invention. 

Enfin, 1' invention concerne un dernier mode 
de realisation du composant, dependant du mode de 
realisation a gros grain, dit a gros grain autonome, 

25 pour le traitement d'un ensemble d' applications 
comportant au moins une application, dans lequel chaque 
cellule de base CB du bloc TD conf iguree pour ef f ectuer 
un traitement est apte a realiser les operations 
necessaires au traitement complet d' au moins une 

30 application de 1' ensemble, chaque application de 



1' ensemble etant apte a §tre r§alisee completement par 
au moins une cellule de base CB. 

Ce composant a gros grain autonome est la 
version optimale du composant a architecture 
reconf igurable de manidre dynamique selon 1' invention. 
II est capable de traiter un ensemble d' applications 
(qui peut se reduire a une seule application) grace a 
des cellules de base autonome s quant au traitement de 
ces applications. Cette autonomie des cellules CB 
permet de beneficier de maniere optimale des 
possibilites tres souples de reconfiguration du 
composant et d' utilisation des divers modes de 
traitement en pipeline, en paralldle, mixte ou en 
lignes dependantes ou de leurs diverses combinaisons . 

BREVE DESCRIPTION DES DESSINS 

Les caracteristiques et avantages de 
1' invention exposee plus haut, ainsi que d'autres qui 
ressortiront de la description suivante de modes 
particuliers de realisation, donnes a titre d'exemples, 
apparaitront davantage en se referant aux dessins 
annexes, sur lesquels : 

- la figure 1, decrite plus haut, illustre le mode 
de realisation de base du composant selon 
1' invention, dans un cas particulier avec trois 

- - - - blocs elementaires BE. ; . 

- la figure 2, decrite plus haut, illustre un 
exemple de structure d'un bloc BE du composant a 
lignes d' unites de traitement ; 
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- la figure 3, d^crite plus haut, illustre une unite 
de traitement UT avec cellules CE du coraposant 
avec banc de cellules ; 

- la figure 4, d6crite plus haut, illustre, pour un 
5 bloc BE, un exemple de connexions entre deux bancs 

de cellules CE adjacents au sein du bloc BE via un 
bloc BCOM d'un coraposant avec banc de cellules ; 

- la figure 5, decrite plus haut, illustre ' un 
exemple d'un composant avec ■ gestion d'entree- 

10 sortie ; 

- la figure 6, decrite plus haut, est une 
illustration d'un exemple d' insertion d'une chaine 
JTAG dans une partie d'un composant avec JTAG ; 

- la figure 7 est un schema d'une vue generale d'un 
15 composant a gros grain autonome ; 

- la figure 8 est un schema illustrant la phase de 
remplissage d'une ligne de cellules de base en 
mode parallele ; 

- la figure 9 est un schema illustrant la phase de 
2 0 bouclage d'une ligne de cellules de base en mode 

parallele ; 

- la figure 10 est un schema illustrant la phase de 
vidage d'une ligne de cellules de base en mode 
parallele ,- 

25 - la figure 11 est un schema resumant les etapes de 

f onctionnement en mode parallele d'un composant a 
gros grain autonome. 

EXPOSE DETAILLE D'UN MODE DE REALISATION PARTICULIER 



3 0 Le f onctionnement d'un exemple de 

realisation d'un composant a gros grain autonome selon 
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1' invention comporte plusieurs phases qui peuvent 
correspondre a des strategies d' utilisation 
differentes. Parmi toutes ces phases, la mise en oeuvre 
des phases suivantes (a titre d'exemple) sera 
5 detaillee : celles d' initialisation, de f onctionnement 
normal d'un f onctionnement en parallele. 

La figure 7 illustre l'exemple de 
composant retenu : un composant a deux lignes (ou deux 
blocs BE), la ligne d' indice 0 et la ligne d'indice 1, 

10 avec sur chague ligne deux cellules de base CB et leurs 
unites de traitement >UT indicees par un couple (i,j) ou 
i est 1' indice de ligne et j celui de colonne . Ainsi, 
sur la ligne 0, la cellule CB(0,1) (60) comprend les 
unite UT(0,1) et UT(0,2) et leur bloc de communication 

15 associe BCOM(0,1) (63) pour leguel les indices sont, 
par convention, ceux de 1' unite UT precedant le bloc 
sur la ligne ; la seconde cellule CB(0,2) (62) sur la 
ligne communique avec la premiere via le bloc BCOM(0,2) 
(64) et comprend les unites UT(0,3) et UT{0,4) et le 

20 bloc BCOM(0,3) (65). De meme, la seconde ligne comprend 
les cellules de base CB(1,1) (66) et CB(1,2) (67), 
respectivement formees de UT(1,1), BC0M(1,1) (68), 
UT(1,3) et UT(1,3), BCOM(l,3) (69), UT(1,4), qui 
communiquent via le bloc BCOM(l,2) (70). Des registres 

25 interlignes (71,72,73) font respectivement communiquer 
les blocs BCOM(0,1) (63) et BCOM(l,l) (68), BCOM(0,2) 
(64) et ~BCOMdr2)^ (70) BCOM(0,3) (65) et BCOM(l,3) 
(67).. Le composant comporte un bus de donnees d' entree 
du bloc TD (74), un gestionnaire d' entrees GE (75) 

30 connecte au bus de donnees d' entree commun (76), un bus 
de donnees de sortie du bloc TD (77) connecte au 
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gestionnaire de sortie GS (78) qui recoit les bus de 
donnees de sortie respectivement des lignes 0 (7 9) et 1 

(80) . Le contrdleur general CG (81) relie : au bus de 
controle comraun des unites UT de la ligne 0 ( 82 ) et au 
5 bus de controle commun des blocs BCOM de la ligne 0 

(83), au bus de contr61e commun des unitis UT de la 
ligne 1 (84) et au bus de contr61e commun des blocs 
BCOM de la ligne 1 (85) ; le controleur CG etant apte a 
echanger des signaux de controle avec 1'exterieur (86) 
10 ou avec un regis t re a decalage peripherique (87) 

("Boundary Scan') pour le controle JTAG. 

a) la phase d' initialisation 

Lors de cette phase , on charge les 
15 differentes donnees de configuration utiles dans les 
differentes memoires . Cette phase existe apres un reset 
de mise sous tension ou apres un reset logiciel 
provoqui . Le chargement se fait par le bus de donnees 
(76) (chargement en parallele) . On charge en premier 
20 lieu les configurations des cellules ligne par ligne 
successivement, puis on procede de m§me pour les blocs 
de communication. Ensuite des tests sont effectues sur 
le compos ant pour verifier la bonne configuration 
initiale ainsi que la surete structurelle (par exemple 
25 avec un test BIST) : a l'issu de cette etape le 
contrdleur CG signale a 1'exterieur que le composant 
est prlt a~ recevoir "des donnees-. - . _ 

b) phase de f onctionnement en parallele 

3 0 Dans cet exemple, les lignes fonctionnent 

de facon autonome l'une par rapport a 1' autre, et 
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toutes les £tapes d^crites ci-apres sont synchronisees 
a l'horloge (indiquee par Clock sur les dessins) . 

Au niveau de chaque ligne, il y a trois 
e tapes de f onctionnement : 
5 - une etape 1 de chargement de ligne, par exemple la 
ligne 0, la ligne St ant considered comme un pipeline 
que 1'on remplit. 

L' etape 1 est illustree, pour le remplissage de la 
ligne 0 (en reference a la figure 7) , sur la figure 8 : 

10 en 8a les operations executees par les unites sont 
indiqu6es par opl, op2 etc.. / en 8b est repr£sente un 
chronogramme correspondant aux operations effectu£es 
sur la ligne 0, les impulsions de l'horloge sont 
representees en haut du chronogramme (Clock) . 

15 Le gestionnaire GE r^cupere des blocs de 

donnees, par exemple de 64 bits, et reconstitue le mot 
de p bits qui sera envoye" sur la premiere unite UT de 
la ligne UT(0,1) de la premidre cellule CB(0,1). On 
charge UT(0,1) avec la premiere donnee 1 qui execute 

20 1' operation 1, puis on transfere le resultat vers 
UT(0,2) ; ensuite UT(0,1) execute 1' operation 1 sur un 
bloc de donnees 2 tandis que UT(0,2) execute 
1' operation 2 sur le bloc de donnees 1. On realise de 
nouveau le transfert jusqu'a atteindre le bout de la 

25 ligne (toutes les unites de traitement sont occupees 
par une donnee) . 

- une etape 2 cie bbucTage" (exemple de -la -ligne- 0)-: pour, 
realiser le reste du traitement a effectuer (de 
1 ' application) en n' employant que les ressources de la 
3 0 ligne. On travaille alors par cellules de base 
(autonomes) pour realiser le traitement en parall£le. 
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L' etape 2 est illustree, pour le bondage de la ligne 
0, sur la figure 9 : en 9a les operations effectuees 
par les unites de la ligne sont indiquies ; en 9b est 
represent e un chronogramme de cette etape de bouclage ; 
5 la notation x donnee 4/3' indiquant un echange des 
donnees trait ees 4 et 3 entre les unites 171(0,1) et 
UT(0,2) . . 

- une etape 3 de vidage de ligne, qui est illustree, 
pour le vidage de la ligne 0, sur la figure 10 : en 10a 
10 les operations effectuees par les unites de la ligne 
sont indiquees ; en 10b est represents un chronogramme 
de cette Stape de vidage : 

lorsqu'on arrive a la fin de 1 ' algorithme, la cellule 
de base connectee au bus de sortie 03(0,2) va pouvoir 

15 decharger les donnees traitees, on passe a la phase de 
vidage du pipeline. En effet, 1' unite" UT(0,4) de la 
deuxieme cellule decharge le bloc de donnees 1 qui 
vient d'etre traite dans le gestionnaire GS . Cependant, 
le bloc de donnees 2, dans UT(0,3), n'a pas encore subi 

20 la derniere operation. II passe done dans UT(0,4) pour 
subir cette operation, 1' unite UT(0,2) transferant son 
bloc de donnees 3 a UT(0,3) etc., jusqu'au vidage 
coniplet de la ligne 0 . 

Des que le gestionnaire de sortie a une 

25 nouvelle donnee traitee, il le signale a 1'extirieur 
pour sa recuperation. Ce schema se repete, en 
parallele, pour la~ligne 1." 

La figure 11 resume les etapes precedentes 
et indique les traitements effectues en parallele sur 

30 les lignes 0 et 1 du composant represents en 11a. Les 
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etapes effectues sur chacune de ces lignes, au cours du 
temps, sont representees sur un chronogramme en lib. 
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REVINDICATIONS 

1. Composant a architecture reconf igurable 
dynamiquement pour le traitement de donnees comportant 

5 un bloc de traitement de donnees TD et un contr61eur 
general CG apte a controler le bloc TD caracterise en 
ce que : 

le bloc TD coraprend une plurality de blocs 
el§mentaires de traitement de donnees BE 

10 reconf igurables ; chaque bloc elementaire BE comprenant 
deux entrees, El et E2, pour la reception de donnees a 
traiter, et une sortie S pour la transmission de 
donnees traitees ; un bus de donnees d' entree commun 
§tant apte a transmettre des donnees a traiter a 

15 1 ' entree . El de chacun des blocs BE ainsi qu'au 
contr61eur CG ; pour chaque bloc BE, un bus de donnies 
de sortie, connect! a sa sortie S, etant apte a 
transmettre des donnees traitees vers l'exterieur du 
composant et, par un bus de donnees derive, a 1' entree 

20 E2 d'un seul autre bloc BE ; 

le controleur CG est apte a initialiser les 
configurations des blocs BE et commander leur 
reconfiguration dynamique, a controler les flux de 
donnees en sortie de chaque bloc BE de facon a 

25 transmettre des donnees soit vers l'exterieur soit vers 
1' entree E2 d'un autre bloc BE, a controler les flux de 
donnees en entree- de chaque bloc BE-. . 

2 . Composant selon la revendication 1 dans 
3 0 lequel le contr61eur CG est apte a commander la 

transmission des donnees recues de 1'extirieur sur le 
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bus de donnees d' entree commun, au fur et a mesure de 
leur arrivee, success ivement a chacun des blocs BE, les 
donnees etant transmises a un bloc BE suivant lorsque 
la capacite maximale de trait ement du bloc BE precedent 
5 est atteinte. 

3 . Composant selon la revendication 1 ou 2 
dans lequel le controleur CG est apte a initialiser les 
configurations des blocs BE, bloc par bloc, et 
10 commander la reconfiguration dynamique des blocs, bloc 
par bloc, de facon a reridre le bloc TD apte a traiter 
des donnees en mode pipeline ou en mode parallele ou en 
mode mixte. 

15 4. Composant selon l'une quelconque des 

revendications 1 a 3 dans lequel : 

- chaque bloc BE du bloc TD comprend une plurality 
d' unites de traitement de donnees UT conf igurables , et 
correspond a une ligne d'un reseau matriciel d' unites 
20 UT dans le bloc TD ; les unites UT de chaque paire 
d' unites successives dans chaque bloc BE etant aptes a 
Schanger des donnees via un bloc de communication 
bidirectionnelle configurable associe BCOM dedie a ces 
deux unites ; 

25 - 1'unite UT d' entree de chaque bloc BE, qui correspond 
a la premiere unite UT sur la ligne correspondant au 
bloc, est apte a -recevoi-r- en- entree -des donnees. recues 
sur les entrees El ou E2 du bloc, et 1'unite UT de 
sortie du bloc, qui correspond a la derniere unite UT 

3 0 sur la ligne correspondant au bloc, est apte a 
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transmettre en sortie des donnees traitees a la sortie 
S du bloc / 

- le contr61eur CG est apte, pour chaque bloc BE, a 
recevoir de l'ext6rieur des instructions pour le 

5 traitement de donnees par chacune des unites UT du bloc 
et a les m^moriser, a initialiser les configurations de 
chaque unite UT et de chaque bloc BCOM du bloc BE et- a. 
.commander leur reconfiguration dynamique. 

10 -5. Composant selon la revendication 4 dans 

lequel : 

- les blocs BCOM de chaque paire de blocs BCOM, dont 
les unites UT associees sont, selon le reseau matriciel 
d' unites du bloc TD, sur des colonnes adjacentes et sur 

15 des lignes adjacentes, sont aptes a gchanger des 
donnees par un registre inter-lignes associe REG, de 
facon a permettre l'6change de donnees entre unites UT 
d'une ligne a 1' autre; 

le control eur CG est apte a commander la 

20 reconfiguration dynamique des unites UT et des blocs 
BCOM du bloc TD pour rendre le bloc TD apte a traiter 
des donnees en mode a lignes dependant es , pour au moins 
deux lignes adjacentes du reseau matriciel, en 
commandant la bifurcation des donnees entre deux blocs 

25 BE correspondant aux deux lignes adjacentes, via un 
registre inter-lignes REG entre ces deux lignes. 

6. Composant selon la revendication 5 dans 
lequel le controleur CG est apte a transmettre, via un 
30 bus de controle, des signaux de type RESET ou ENABLE ou 
d'horloge a chaque registre REG du bloc TD, et dans 
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lequel chague registre inter- lignes REG entre deux 
blocs BCOM est apte a : 

- stocker des donnees recues d'un bloc BCOM dans une 
memoire et les rendre disponibles pour 1' autre bloc 
BCOM ; 

- recevoir des signaux de type RESET ou ENABLE ou 
d'horloge emis par . le controleur CG et executer les 
commandes correspondantes a ces signaux. 

7. Composant selon 1'une quelconque des 
revendications 4 a. 6 dans lequel : les entrees El et E2 
d'un bloc BE sont celles d'un multiplexeur associe au 
bloc, la sortie du multiplexeur 6tant connectee 

1' entree de 1' unite UT d' entree du bloc BE pour la 
transmission de donnees a cette unite. 

8. Composant selon l'une quelconque des 
revendications 4 a 7 dans lequel : les unites de 
traitement de donnees UT du bloc TD sont des bancs de 
cellules elementaires synchrones de traitement de 
donnees CE conf igurables , chaque banc comportant au 
moins une cellule elementaire CE ; les cellules CE de 
toute unite UT d'un bloc BE quelconque sont connectees 
a un bus de controle commun qui les relie au contrSleur 
CG, le contr61eur CG etant apte a controler les 
cellules CE et a. commander leur reconfiguration; pour 
chaque paire d' unites UT adjacentes dans- un bloc_ _BE.,_ 
les cellules elementaires d'une unite UT sont aptes a 
echanger des donnees avec les cellules elementaires de 
1' autre unite UT via le bloc BCOM associe a ces unites, 
le bloc BCOM etant apte a r£aliser ces echanges de 
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donnees ; chague cellule CE de 1' unite UT d' entree de 
chaque bloc BE, qui correspond a la premiere unite UT 
sur la ligne correspondant au bloc, est apte a recevoir 
en entree des donnees recues en entree de 1 ' unite" UT 
5 par un bus de donnees commun a toute cellule CE de 
1' unite UT; chaque cellule CE de 1' unite UT de sortie 
de chaque bloc BE, qui correspond a la derniere unite 
UT sur la ligne correspondant au bloc, est apte a 
transmettre en sortie des donnees a la sortie S du bloc 
10 par un bus de donnees commun a toute cellule CE de 
1' units UT. 

9. Composant selon la revendication 8 dans 
lequel chaque bloc BCOM, associe a des unites UT, 
15 comporte : 

- un bloc de transmission BT apte a realiser des 
echanges de donnees entre les cellules elementaires CE 
d'une unite UT et les cellules CE de 1' autre unite UT 
auxquelles BCOM est associe ; le bloc BT etant apte a 

20 etre configure par un contr61eur local de bloc CLB; 

- un controleur local de bloc CLB apte a recevoir et 
interpreter des signaux de controle provenant du 
controleur CG et a configurer le bloc BT, selon des 
donnees de configurations recues et stockees dans une 

25 memoire de configuration locale MB, pour la 
transmission de donnees ; le controleur CLB etant apte 
a gerer le chargement^ de Ta~ memoire" MB" en - f onction de 
signaux de contrSle recus du contrdleur CG ; 

un controleur general CG apte a contr61er les 

3 0 controleur s locaux CLB du bloc TD. 
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10. Composant selon 1'une quelconque des 
revendi cat ions 8 ou 9 dans leguel chaque cellule 
elementaire synchrone CE d'un banc comporte : 

- un bloc operateur BO apte a recevoir des donnees en 
entree par un bus de donnees d' entree, a les stocker et 
a ef f ectuer un traitement sur ces donnees selon des 
signaux de configuration provenant d'un controleur 
local de cellule CLC ; a transmettre le resultat du 
traitement en sortie par un bus de donnees de sortie ; 

- un controleur local de cellule CLC apte a : 

- recevoir des donnees par le bus de donnees 
d' entree ; 

- gerer les differents modes de f onctionnement de 
la cellule CE, c'est-a-dire un mode 
d' initialisation, pour le chargement des mots de 
configuration de la cellule dans une memoire de 
configuration locale MC, un mode de test, pour 
effectuer des tests structurels de la cellule, et 
un mode normal pour 1' execution des operation de 
traitement de donnees, en fonction de signaux de 
configuration emis par le controleur CG et recus 
par le controleur local via le bus de contrdle 
commun ; 

- gerer le chargement de la memoire MC en fonction 
d'un mode de f onctionnement de la cellule indique 
par le contrdleur CG ; 

- interpreter "des signaux de configuration -recus _ 
du contr61eur CG pour soit charger un mot de 
configuration correspondant dans un registre de 
configuration local RCL pour le maintenir pendant 
le cycle de traitement de donnees par la cellule, 
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soit configurer le bloc BO en fonction d'un mot de 
configuration figurant dans le registre RCL ; 
- effectuer des tests structurels de la cellule CE 
sur reception d'un signal de mode test emis par le 
5 controleur CG ; 

un controleur general CG apte a control er les 
contr61eurs locaux CLC du bloc TD . 

11. Composant selon la revendication 10 
10 dans lequel le controleur local de cellule CLC est apte 

a interpreter des signaux de configuration recus du 
controleur CG pour d'abord lire un numero de 
configuration de cellule sur le bus de control e commun 
puis charger un mot de configuration correspondant 
15 localement a ce numero, selon une table de 
correspondance locale, dans le registre RCL ; les 
numeros de configuration de cellule etant stockes dans 
une memoire du controleur CG et le controleur CLC etant 
apte a memoriser la table de correspondance locale. 

20 

12. Composant selon 1'une guelconque des 
revendications 10 ou 11 dans lequel le controleur CG 
est apte a recevoir d'une cellule CE une indication de 
dysf onctionnement resultant d'un test structurel mis en 

25 oeuvre sur cette cellule, • et a commander au controleur 
local CLC de la cellule CE de configurer la cellule en 
mode - BYPASS . - - - ■ - 

13 . Composant selon les revendications 9 et 
30 12 dans lequel le controleur local de bloc CLB d'un 

bloc de communication BCOM, connects a une unite UT, 
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est apte a configurer le bloc BCOM en mode BYPASS 
lorsque le controleur CG, ayant recu d' une ou plusieurs 
cellules CE de 1' unite UT une indication de 
dysfonctionnement, transmet au contr61eur CLB un signal 
5 de passage en mode BYPASS ; le controleur CG etant apte 
a commander le passage en mode BYPASS d'un bloc BCOM 
d'une unite UT lorsqu'une commande de configuration en 
mode BYPASS d'une cellule CE de l'unit§ UT a ete 
transmise au contr61eur local CLC de la cellule CE. 

10 

14. Composant selon 1'une quelconque des 
revendications 8 a 13 dans lequel le resultat du 
traitement de donnees effectue par une cellule CE est 
apte a etre stocke dans un registre local ; un resultat 

15 stocke dans ce registre local etant maintenu lors d'une 
reconfiguration de la cellule. 

15. Composant selon l'une quelconque des 
revendications 1 a 14 comportant : 

20 - un bloc de gestion d' entree GE apte a recevoir des 
donnees de l'ext6rieur et a stocker temporairement ces 
donnees recues, a formater des donnees stockees selon 
le mode d' initialisation ou le mode normal indique par 
le controleur CG via un bus de controle propre, a 

25 transmettre des donnees formatees a 1', entree El des 
blocs BE du bloc TD via le bus de donnees d' entree 
commun ; 

un bloc de gestion de sortie GS, connecte au 
controleur CG par un bus de contr61e propre pour la 
30 commande de reception de donnees traitees, connecte au 
bus de donnees de sortie de chacun des blocs BE du bloc 
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TD pour recevoir des donnees traitees, et apte a 
reformater des donnees traitees recues, a stoker dans 
une memo ire tampon des donnees reformatees, a recevoir 
une requite de transmission depuis 1' exterieur, a 
transmettre a 1 ' exterieur des donnees stock£es dans la 
memoire tampon sur regu§te recue de 1' exterieur. 

16. Composant selon l'une quelconque des 
revendications 10 a 15 dans leguel le contrSleur local 
CLC de cellule CE, le controleur local CLB de bloc BCOM 
et le controleur general CG sont aptes a mettre en 
oeuvre une mdthode JTAG pour le chargement des 
configurations en phase de reconfiguration dynamigue du 
composant, et pour la realisation de tests / le 
contr61eur CG comprenant un controleur TAP connect e par 
des bus serie JTAG, bloc BE par bloc BE, aux cellules 
CE et aux blocs BCOM du bloc TD. 

17. Composant selon l'une quelconque des 
revendications 4 a 16 dans lequel, sur les lignes du 
reseau, les unites UT sont en norabre pair N et les 
blocs BCOM sont r£partis dans N/2 cellules de base CB, 
chaque cellule CB comportant deux unites UT adjacentes 
et le bloc BCOM associe a ces unites ; le contr61eur CG 
itant apte a commander la reconfiguration dynamique des 
cellules CB du reseau et des blocs BCOM de 
communication entre cellules-GB, 1-igne par ligne, pour 
rendre le bloc TD apte a traiter des donnees au moyen 
des cellules CB. 
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18. Composant selon la revendication 17, 
pour le traitement d'un ensemble d' applications 
comportant au moins une application, dans lequel chaque 
cellule de base CB du bloc TD configuree pour effectuer 
5 un traitement est apte a r^aliser les operations 
necessaires au traitement complet d' au moins une 
application de 1' ensemble, chaque application de 
1' ensemble etant apte a etre realisee completement par 
au moins une cellule de base CB. 
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